# lxml 的使用
# 一般我们获取页面的url  列表数据的时候
# 如果 li 标签里面  还嵌套了很多标签  比如a标签  那么我们不要直接去获取a
# 先获取 li  遍历 li 使用 li 节点在回去里面的标签

from lxml import etree
text = ''' <div> <ul> 
        <li class="item-1"><a href="link1.html">first item</a></li> 
        <li class="item-1"><a href="link2.html">second item</a></li> 
        <li class="item-inactive"><a href="link3.html">third item</a></li> 
        <li class="item-1"><a href="link4.html">fourth item</a></li> 
        <li class="item-0"><a href="link5.html">fifth item</a> 
        </ul> </div> '''

node: etree._Element = etree.HTML(text)

li_list = node.xpath('//li')
# print(li_list)
for li in li_list:
    # print(li)
    anode = li.xpath('./a/@href')
    print(anode[0])
    atext = li.xpath('./a/text()')
    print(atext[0])
